이번 포스트에서는 Java 8의 스트림(Stream)을 살펴봅니다. 총 두 개의 포스트로, 기본적인 내용을 총정리하는 이번 포스트와 좀 더 고급 내용을 다루는 다음 포스트로 나뉘어져 있습니다.
살펴볼 내용
이번 포스트에서 다루는 내용은 다음과 같습니다. 아는 내용이라면 다음 포스트를 살펴보시는게 좋습니다.
- 생성하기
- 배열 / 컬렉션 / 빈 스트림
- Stream.builder() / Stream.generate() / Stream.iterate()
- 기본 타입형 / String / 파일 스트림
- 병렬 스트림 / 스트림 연결하기
- 가공하기
- Filtering
- Mapping
- Sorting
- Iterating
- 결과 만들기
- Calculating
- Reduction
- Collecting
- Matching
- Iterating
스트림 Streams
자바 8에서 추가한 스트림(Streams)은 람다를 활용할 수 있는 기술 중 하나입니다. 자바 8 이전에는 배열 또는 컬렉션 인스턴스를 다루는 방법은 for
또는 foreach
문을 돌면서 요소 하나씩을 꺼내서 다루는 방법이었습니다. 간단한 경우라면 상관없지만 로직이 복잡해질수록 코드의 양이 많아져 여러 로직이 섞이게 되고, 메소드를 나눌 경우 루프를 여러 번 도는 경우가 발생합니다.
스트림은 '데이터의 흐름’입니다. 배열 또는 컬렉션 인스턴스에 함수 여러 개를 조합해서 원하는 결과를 필터링하고 가공된 결과를 얻을 수 있습니다. 또한 람다를 이용해서 코드의 양을 줄이고 간결하게 표현할 수 있습니다. 즉, 배열과 컬렉션을 함수형으로 처리할 수 있습니다.
또 하나의 장점은 간단하게 병렬처리(multi-threading)가 가능하다는 점입니다. 하나의 작업을 둘 이상의 작업으로 잘게 나눠서 동시에 진행하는 것을 병렬 처리(parallel processing)라고 합니다. 즉 쓰레드를 이용해 많은 요소들을 빠르게 처리할 수 있습니다.
스트림에 대한 내용은 크게 세 가지로 나눌 수 있습니다.
- 생성하기 : 스트림 인스턴스 생성.
- 가공하기 : 필터링(filtering) 및 맵핑(mapping) 등 원하는 결과를 만들어가는 중간 작업(intermediate operations).
- 결과 만들기 : 최종적으로 결과를 만들어내는 작업(terminal operations).
1 | 전체 -> 맵핑 -> 필터링 1 -> 필터링 2 -> 결과 만들기 -> 결과물 |
생성하기
보통 배열과 컬렉션을 이용해서 스트림을 만들지만 이 외에도 다양한 방법으로 스트림을 만들 수 있습니다. 하나씩 살펴보겠습니다.
배열 스트림
스트림을 이용하기 위해서는 먼저 생성을 해야 합니다. 스트림은 배열 또는 컬렉션 인스턴스를 이용해서 생성할 수 있습니다. 배열은 다음과 같이 Arrays.stream
메소드를 사용합니다.
1 | String[] arr = new String[]{"a", "b", "c"}; |
컬렉션 스트림
컬렉션 타입(Collection, List, Set)의 경우 인터페이스에 추가된 디폴트 메소드 stream
을 이용해서 스트림을 만들 수 있습니다.
1 | public interface Collection<E> extends Iterable<E> { |
그러면 다음과 같이 생성할 수 있습니다.
1 | List<String> list = Arrays.asList("a", "b", "c"); |
비어 있는 스트림
비어 있는 스트림(empty streams)도 생성할 수 있습니다. 언제 빈 스트림이 필요할까요? 빈 스트림은 요소가 없을 때 null
대신 사용할 수 있습니다.
1 | public Stream<String> streamOf(List<String> list) { |
Stream.builder()
빌더(Builder)를 사용하면 스트림에 직접적으로 원하는 값을 넣을 수 있습니다. 마지막에 build
메소드로 스트림을 리턴합니다.
1 | Stream<String> builderStream = |
Stream.generate()
generate
메소드를 이용하면 Supplier<T>
에 해당하는 람다로 값을 넣을 수 있습니다. Supplier<T>
는 인자는 없고 리턴값만 있는 함수형 인터페이스죠. 람다에서 리턴하는 값이 들어갑니다.
1 | public static<T> Stream<T> generate(Supplier<T> s) { ... } |
이 때 생성되는 스트림은 크기가 정해져있지 않고 무한(infinite)하기 때문에 특정 사이즈로 최대 크기를 제한해야 합니다.
1 | Stream<String> generatedStream = |
5개의 “gen” 이 들어간 스트림이 생성됩니다.
Stream.iterate()
iterate
메소드를 이용하면 초기값과 해당 값을 다루는 람다를 이용해서 스트림에 들어갈 요소를 만듭니다. 다음 예제에서는 30이 초기값이고 값이 2씩 증가하는 값들이 들어가게 됩니다. 즉 요소가 다음 요소의 인풋으로 들어갑니다. 이 방법도 스트림의 사이즈가 무한하기 때문에 특정 사이즈로 제한해야 합니다.
1 | Stream<Integer> iteratedStream = |
기본 타입형 스트림
물론 제네릭을 사용하면 리스트나 배열을 이용해서 기본 타입(int, long, double) 스트림을 생성할 수 있습니다. 하지만 제네릭을 사용하지 않고 직접적으로 해당 타입의 스트림을 다룰 수도 있습니다. range
와 rangeClosed
는 범위의 차이입니다. 두 번째 인자인 종료지점이 포함되느냐 안되느냐의 차이입니다.
1 | IntStream intStream = IntStream.range(1, 5); // [1, 2, 3, 4] |
제네릭을 사용하지 않기 때문에 불필요한 오토박싱(auto-boxing)이 일어나지 않습니다. 필요한 경우 boxed
메소드를 이용해서 박싱(boxing)할 수 있습니다.
1 | Stream<Integer> boxedIntStream = IntStream.range(1, 5).boxed(); |
Java 8 의 Random
클래스는 난수를 가지고 세 가지 타입의 스트림(IntStream, LongStream, DoubleStream)을 만들어낼 수 있습니다. 쉽게 난수 스트림을 생성해서 여러가지 후속 작업을 취할 수 있어 유용합니다.
1 | DoubleStream doubles = new Random().doubles(3); // 난수 3개 생성 |
문자열 스트링
스트링을 이용해서 스트림을 생성할수도 있습니다. 다음은 스트링의 각 문자(char)를 IntStream
으로 변환한 예제입니다. char
는 문자이지만 본질적으로는 숫자이기 때문에 가능합니다.
1 | IntStream charsStream = |
다음은 정규표현식(RegEx)을 이용해서 문자열을 자르고, 각 요소들로 스트림을 만든 예제입니다.
1 | Stream<String> stringStream = |
파일 스트림
자바 NIO 의 Files
클래스의 lines
메소드는 해당 파일의 각 라인을 스트링 타입의 스트림으로 만들어줍니다.
1 | Stream<String> lineStream = |
병렬 스트림 Parallel Stream
스트림 생성 시 사용하는 stream
대신 parallelStream
메소드를 사용해서 병렬 스트림을 쉽게 생성할 수 있습니다. 내부적으로는 쓰레드를 처리하기 위해 자바 7부터 도입된 Fork/Join framework 를 사용합니다.
1 | // 병렬 스트림 생성 |
따라서 다음 코드는 각 작업을 쓰레드를 이용해 병렬 처리됩니다.
1 | boolean isMany = parallelStream |
다음은 배열을 이용해서 병렬 스트림을 생성하는 경우입니다.
1 | Arrays.stream(arr).parallel(); |
컬렉션과 배열이 아닌 경우는 다음과 같이 parallel
메소드를 이용해서 처리합니다.
1 | IntStream intStream = IntStream.range(1, 150).parallel(); |
다시 시퀀셜(sequential) 모드로 돌리고 싶다면 다음처럼 sequential
메소드를 사용합니다. 뒤에서 한번 더 다루겠지만 반드시 병렬 스트림이 좋은 것은 아닙니다.
1 | IntStream intStream = intStream.sequential(); |
스트림 연결하기
Stream.concat
메소드를 이용해 두 개의 스트림을 연결해서 새로운 스트림을 만들어낼 수 있습니다.
1 | Stream<String> stream1 = Stream.of("Java", "Scala", "Groovy"); |
가공하기
전체 요소 중에서 다음과 같은 API 를 이용해서 내가 원하는 것만 뽑아낼 수 있습니다. 이러한 가공 단계를 중간 작업(intermediate operations)이라고 하는데, 이러한 작업은 스트림을 리턴하기 때문에 여러 작업을 이어 붙여서(chaining) 작성할 수 있습니다.
1 | List<String> names = Arrays.asList("Eric", "Elena", "Java"); |
아래 나오는 예제 코드는 위와 같은 리스트를 대상으로 합니다.
Filtering
필터(filter)은 스트림 내 요소들을 하나씩 평가해서 걸러내는 작업입니다. 인자로 받는 Predicate 는 boolean 을 리턴하는 함수형 인터페이스로 평가식이 들어가게 됩니다.
1 | Stream<T> filter(Predicate<? super T> predicate); |
간단한 예제입니다.
1 | Stream<String> stream = |
스트림의 각 요소에 대해서 평가식을 실행하게 되고 ‘a’ 가 들어간 이름만 들어간 스트림이 리턴됩니다.
Mapping
맵(map)은 스트림 내 요소들을 하나씩 특정 값으로 변환해줍니다. 이 때 값을 변환하기 위한 람다를 인자로 받습니다.
1 | <R> Stream<R> map(Function<? super T, ? extends R> mapper); |
스트림에 들어가 있는 값이 input 이 되어서 특정 로직을 거친 후 output 이 되어 (리턴되는) 새로운 스트림에 담기게 됩니다. 이러한 작업을 맵핑(mapping)이라고 합니다.
간단한 예제입니다. 스트림 내 String 의 toUpperCase
메소드를 실행해서 대문자로 변환한 값들이 담긴 스트림을 리턴합니다.
1 | Stream<String> stream = |
다음처럼 요소 내 들어있는 Product 개체의 수량을 꺼내올 수도 있습니다. 각 ‘상품’을 ‘상품의 수량’으로 맵핑하는거죠.
1 | Stream<Integer> stream = |
map
이외에도 조금 더 복잡한 flatMap
메소드도 있습니다.
1 | <R> Stream<R> flatMap(Function<? super T, ? extends Stream<? extends R>> mapper); |
인자로 mapper
를 받고 있는데, 리턴 타입이 Stream 입니다. 즉, 새로운 스트림을 생성해서 리턴하는 람다를 넘겨야합니다. flatMap
은 중첩 구조를 한 단계 제거하고 단일 컬렉션으로 만들어주는 역할을 합니다. 이러한 작업을 플래트닝(flattening)이라고 합니다.
다음과 같은 중첩된 리스트가 있습니다.
1 | List<List<String>> list = |
이를 flatMap
을 사용해서 중첩 구조를 제거한 후 작업할 수 있습니다.
1 | List<String> flatList = |
이번엔 객체에 적용해보겠습니다.
1 | students.stream() |
위 예제에서는 학생 객체를 가진 스트림에서 학생의 국영수 점수를 뽑아 새로운 스트림을 만들어 평균을 구하는 코드입니다. 이는 map
메소드 자체만으로는 한번에 할 수 없는 기능입니다.
Sorting
정렬의 방법은 다른 정렬과 마찬가지로 Comparator 를 이용합니다.
1 | Stream<T> sorted(); |
인자 없이 그냥 호출할 경우 오름차순으로 정렬합니다.
1 | IntStream.of(14, 11, 20, 39, 23) |
인자를 넘기는 경우와 비교해보겠습니다. 스트링 리스트에서 알파벳 순으로 정렬한 코드와 Comparator 를 넘겨서 역순으로 정렬한 코드입니다.
1 | List<String> lang = |
Comparator 의 compare
메소드는 두 인자를 비교해서 값을 리턴합니다.
1 | int compare(T o1, T o2) |
기본적으로 Comparator 사용법과 동일합니다. 이를 이용해서 문자열 길이를 기준으로 정렬해보겠습니다.
1 | lang.stream() |
Iterating
스트림 내 요소들 각각을 대상으로 특정 연산을 수행하는 메소드로는 peek
이 있습니다. ‘peek’ 은 그냥 확인해본다는 단어 뜻처럼 특정 결과를 반환하지 않는 함수형 인터페이스 Consumer 를 인자로 받습니다.
1 | Stream<T> peek(Consumer<? super T> action); |
따라서 스트림 내 요소들 각각에 특정 작업을 수행할 뿐 결과에 영향을 미치지 않습니다. 다음처럼 작업을 처리하는 중간에 결과를 확인해볼 때 사용할 수 있습니다.
1 | int sum = IntStream.of(1, 3, 5, 7, 9) |
결과 만들기
가공한 스트림을 가지고 내가 사용할 결과값으로 만들어내는 단계입니다. 따라서 스트림을 끝내는 최종 작업(terminal operations)입니다.
Calculating
스트림 API 는 다양한 종료 작업을 제공합니다. 최소, 최대, 합, 평균 등 기본형 타입으로 결과를 만들어낼 수 있습니다.
1 | long count = IntStream.of(1, 3, 5, 7, 9).count(); |
만약 스트림이 비어 있는 경우 count
와 sum
은 0을 출력하면 됩니다. 하지만 평균, 최소, 최대의 경우에는 표현할 수가 없기 때문에 Optional 을 이용해 리턴합니다.
1 | OptionalInt min = IntStream.of(1, 3, 5, 7, 9).min(); |
스트림에서 바로 ifPresent
메소드를 이용해서 Optional 을 처리할 수 있습니다.
1 | DoubleStream.of(1.1, 2.2, 3.3, 4.4, 5.5) |
이 외에도 사용자가 원하는대로 결과를 만들어내기 위해 reduce
와 collect
메소드를 제공합니다. 이 두 가지 메소드를 좀 더 알아보겠습니다.
Reduction
스트림은 reduce
라는 메소드를 이용해서 결과를 만들어냅니다. 람다 예제에서 살펴봤듯이 스트림에 있는 여러 요소의 총합을 낼 수도 있습니다.
다음은 reduce
메소드는 총 세 가지의 파라미터를 받을 수 있습니다.
- accumulator : 각 요소를 처리하는 계산 로직. 각 요소가 올 때마다 중간 결과를 생성하는 로직.
- identity : 계산을 위한 초기값으로 스트림이 비어서 계산할 내용이 없더라도 이 값은 리턴.
- combiner : 병렬(parallel) 스트림에서 나눠 계산한 결과를 하나로 합치는 동작하는 로직.
1 | // 1개 (accumulator) |
먼저 인자가 하나만 있는 경우입니다. 여기서 BinaryOperator<T>
는 같은 타입의 인자 두 개를 받아 같은 타입의 결과를 반환하는 함수형 인터페이스입니다. 다음 예제에서는 두 값을 더하는 람다를 넘겨주고 있습니다. 따라서 결과는 6(1 + 2 + 3)이 됩니다.
1 | OptionalInt reduced = |
이번엔 두 개의 인자를 받는 경우입니다. 여기서 10은 초기값이고, 스트림 내 값을 더해서 결과는 16(10 + 1 + 2 + 3)이 됩니다. 여기서 람다는 메소드 참조(method reference)를 이용해서 넘길 수 있습니다.
1 | int reducedTwoParams = |
마지막으로 세 개의 인자를 받는 경우입니다. Combiner 가 하는 역할을 설명만 봤을 때는 잘 이해가 안갈 수 있는데요, 코드를 한번 살펴봅시다. 그런데 다음 코드를 실행해보면 이상하게 마지막 인자인 combiner 는 실행되지 않습니다.
1 | Integer reducedParams = Stream.of(1, 2, 3) |
Combiner 는 병렬 처리 시 각자 다른 쓰레드에서 실행한 결과를 마지막에 합치는 단계입니다. 따라서 병렬 스트림에서만 동작합니다.
1 | Integer reducedParallel = Arrays.asList(1, 2, 3) |
결과는 다음과 같이 36이 나옵니다. 먼저 accumulator 는 총 세 번 동작합니다. 초기값 10에 각 스트림 값을 더한 세 개의 값(10 + 1 = 11, 10 + 2 = 12, 10 + 3 = 13)을 계산합니다. Combiner 는 identity 와 accumulator 를 가지고 여러 쓰레드에서 나눠 계산한 결과를 합치는 역할입니다. 12 + 13 = 25, 25 + 11 = 36 이렇게 두 번 호출됩니다.
1 | combiner was called |
병렬 스트림이 무조건 시퀀셜보다 좋은 것은 아닙니다. 오히려 간단한 경우에는 이렇게 부가적인 처리가 필요하기 때문에 오히려 느릴 수도 있습니다.
Collecting
collect
메소드는 또 다른 종료 작업입니다. Collector
타입의 인자를 받아서 처리를 하는데요, 자주 사용하는 작업은 Collectors
객체에서 제공하고 있습니다.
이번 예제에서는 다음과 같은 간단한 리스트를 사용합니다. Product 객체는 수량(amout)과 이름(name)을 가지고 있습니다.
1 | List<Product> productList = |
Collectors.toList()
스트림에서 작업한 결과를 담은 리스트로 반환합니다. 다음 예제에서는 map
으로 각 요소의 이름을 가져온 후 Collectors.toList
를 이용해서 리스트로 결과를 가져옵니다.
1 | List<String> collectorCollection = |
Collectors.joining()
스트림에서 작업한 결과를 하나의 스트링으로 이어 붙일 수 있습니다.
1 | String listToString = |
Collectors.joining
은 세 개의 인자를 받을 수 있습니다. 이를 이용하면 간단하게 스트링을 조합할 수 있습니다.
- delimiter : 각 요소 중간에 들어가 요소를 구분시켜주는 구분자
- prefix : 결과 맨 앞에 붙는 문자
- suffix : 결과 맨 뒤에 붙는 문자
1 | String listToString = |
Collectors.averageingInt()
숫자 값(Integer value )의 평균(arithmetic mean)을 냅니다.
1 | Double averageAmount = |
Collectors.summingInt()
숫자값의 합(sum)을 냅니다.
1 | Integer summingAmount = |
IntStream 으로 바꿔주는 mapToInt
메소드를 사용해서 좀 더 간단하게 표현할 수 있습니다.
1 | Integer summingAmount = |
Collectors.summarizingInt()
만약 합계와 평균 모두 필요하다면 스트림을 두 번 생성해야 할까요? 이런 정보를 한번에 얻을 수 있는 방법으로는 summarizingInt
메소드가 있습니다.
1 | IntSummaryStatistics statistics = |
이렇게 받아온 IntSummaryStatistics 객체에는 다음과 같은 정보가 담겨 있습니다.
1 | IntSummaryStatistics {count=5, sum=86, min=13, average=17.200000, max=23} |
- 개수 getCount()
- 합계 getSum()
- 평균 getAverage()
- 최소 getMin()
- 최대 getMax()
이를 이용하면 collect
전에 이런 통계 작업을 위한 map
을 호출할 필요가 없게 됩니다. 위에서 살펴본 averaging, summing, summarizing 메소드는 각 기본 타입(int, long, double)별로 제공됩니다.
Collectors.groupingBy()
특정 조건으로 요소들을 그룹지을 수 있습니다. 수량을 기준으로 그룹핑해보겠습니다. 여기서 받는 인자는 함수형 인터페이스 Function 입니다.
1 | Map<Integer, List<Product>> collectorMapOfLists = |
결과는 Map 타입으로 나오는데요, 같은 수량이면 리스트로 묶어서 보여줍니다.
1 | {23=[Product{amount=23, name='potatoes'}, |
Collectors.partitioningBy()
위의 groupingBy
함수형 인터페이스 Function 을 이용해서 특정 값을 기준으로 스트림 내 요소들을 묶었다면, partitioningBy
은 함수형 인터페이스 Predicate 를 받습니다. Predicate 는 인자를 받아서 boolean 값을 리턴합니다.
1 | Map<Boolean, List<Product>> mapPartitioned = |
따라서 평가를 하는 함수를 통해서 스트림 내 요소들을 true 와 false 두 가지로 나눌 수 있습니다.
1 | {false=[Product{amount=14, name='orange'}, |
Collectors.collectingAndThen()
특정 타입으로 결과를 collect
한 이후에 추가 작업이 필요한 경우에 사용할 수 있습니다. 이 메소드의 시그니쳐는 다음과 같습니다. finisher
가 추가된 모양인데, 이 피니셔는 collect 를 한 후에 실행할 작업을 의미합니다.
1 | public static<T,A,R,RR> Collector<T,A,RR> collectingAndThen( |
다음 예제는 Collectors.toSet
을 이용해서 결과를 Set 으로 collect 한 후 수정불가한 Set 으로 변환하는 작업을 추가로 실행하는 코드입니다.
1 | Set<Product> unmodifiableSet = |
Collector.of()
여러가지 상황에서 사용할 수 있는 메소드들을 살펴봤습니다. 이 외에 필요한 로직이 있다면 직접 collector 를 만들 수도 있습니다. accumulator 와 combiner 는 reduce
에서 살펴본 내용과 동일합니다.
1 | public static<T, R> Collector<T, R, R> of( |
코드를 보시면 더 이해가 쉬우실 겁니다. 다음 코드에서는 collector 를 하나 생성합니다. 컬렉터를 생성하는 supplier 에 LinkedList 의 생성자를 넘겨줍니다. 그리고 accumulator 에는 리스트에 추가하는 add
메소드를 넘겨주고 있습니다. 따라서 이 컬렉터는 스트림의 각 요소에 대해서 LinkedList 를 만들고 요소를 추가하게 됩니다. 마지막으로 combiner 를 이용해 결과를 조합하는데, 생성된 리스트들을 하나의 리스트로 합치고 있습니다.
1 | Collector<Product, ?, LinkedList<Product>> toLinkedList = |
따라서 다음과 같이 collect
메소드에 우리가 만든 커스텀 컬렉터를 넘겨줄 수 있고, 결과가 담긴 LinkedList 가 반환됩니다.
1 | LinkedList<Product> linkedListOfPersons = |
Matching
매칭은 조건식 람다 Predicate 를 받아서 해당 조건을 만족하는 요소가 있는지 체크한 결과를 리턴합니다. 다음과 같은 세 가지 메소드가 있습니다.
- 하나라도 조건을 만족하는 요소가 있는지(anyMatch)
- 모두 조건을 만족하는지(allMatch)
- 모두 조건을 만족하지 않는지(noneMatch)
1 | boolean anyMatch(Predicate<? super T> predicate); |
간단한 예제입니다. 다음 매칭 결과는 모두 true
입니다.
1 | List<String> names = Arrays.asList("Eric", "Elena", "Java"); |
Iterating
foreach
는 요소를 돌면서 실행되는 최종 작업입니다. 보통 System.out.println
메소드를 넘겨서 결과를 출력할 때 사용하곤 합니다. 앞서 살펴본 peek
과는 중간 작업과 최종 작업의 차이가 있습니다.
1 | names.stream().forEach(System.out::println); |
참고
- Introduction to Java 8 Streams
- The Java 8 Stream API Tutorial
- Java Null-Safe Streams from Collections
- 도서 <열혈 Java 프로그래밍>